随着自动化许多具有高保真性的化学任务的前景,化学语言处理模型正在快速迅速出现。在这里,我们提出了一个基于云的实时平台,该平台允许用户实际上筛选感兴趣的分子。为此,将杠杆化从最近提出的大型化学语言模型(名为Moleformer)推断出来的分子嵌入。该平台目前支持三个任务:最近的邻居检索,化学空间可视化和财产预测。根据该平台的功能并获得的结果,我们认为这样的平台可以在自动化化学和化学工程研究中起关键作用,并协助药物发现和材料设计任务。在\ url {www.ibm.biz/molecular_demo}提供我们平台的演示。
translated by 谷歌翻译
Learning high-dimensional distributions is often done with explicit likelihood modeling or implicit modeling via minimizing integral probability metrics (IPMs). In this paper, we expand this learning paradigm to stochastic orders, namely, the convex or Choquet order between probability measures. Towards this end, exploiting the relation between convex orders and optimal transport, we introduce the Choquet-Toland distance between probability measures, that can be used as a drop-in replacement for IPMs. We also introduce the Variational Dominance Criterion (VDC) to learn probability measures with dominance constraints, that encode the desired stochastic order between the learned measure and a known baseline. We analyze both quantities and show that they suffer from the curse of dimensionality and propose surrogates via input convex maxout networks (ICMNs), that enjoy parametric rates. We provide a min-max framework for learning with stochastic orders and validate it experimentally on synthetic and high-dimensional image generation, with promising results. Finally, our ICMNs class of convex functions and its derived Rademacher Complexity are of independent interest beyond their application in convex orders.
translated by 谷歌翻译
渐变流是一种强大的工具,用于优化一般度量空间中的功能,包括赋予WasserseIn度量标准的概率空间。解决这种优化问题的典型方法依赖于它与最佳运输的动态配方的连接和庆祝的Jordan-KinderLehrer-Otto(JKO)方案。然而,该制剂涉及优化凸起功能,这是具有挑战性的,尤其是高维度。在这项工作中,我们提出了一种依赖于最近引入的输入 - 凸神经网络(ICNN)的方法,以参加凸起功能的空间,以便近似JKO方案,以及在享受收敛保证的措施中设计功能。我们推出了这种JKO-ICNN框架的计算上有效的实现,并通过了解具有已知解决方案的低维局部微分方程的近似解的可行性和有效性。我们还通过对分子发现的受控生成的实验展示其在高维应用中的可行性。
translated by 谷歌翻译
We introduce a new tool for stochastic convex optimization (SCO): a Reweighted Stochastic Query (ReSQue) estimator for the gradient of a function convolved with a (Gaussian) probability density. Combining ReSQue with recent advances in ball oracle acceleration [CJJJLST20, ACJJS21], we develop algorithms achieving state-of-the-art complexities for SCO in parallel and private settings. For a SCO objective constrained to the unit ball in $\mathbb{R}^d$, we obtain the following results (up to polylogarithmic factors). We give a parallel algorithm obtaining optimization error $\epsilon_{\text{opt}}$ with $d^{1/3}\epsilon_{\text{opt}}^{-2/3}$ gradient oracle query depth and $d^{1/3}\epsilon_{\text{opt}}^{-2/3} + \epsilon_{\text{opt}}^{-2}$ gradient queries in total, assuming access to a bounded-variance stochastic gradient estimator. For $\epsilon_{\text{opt}} \in [d^{-1}, d^{-1/4}]$, our algorithm matches the state-of-the-art oracle depth of [BJLLS19] while maintaining the optimal total work of stochastic gradient descent. We give an $(\epsilon_{\text{dp}}, \delta)$-differentially private algorithm which, given $n$ samples of Lipschitz loss functions, obtains near-optimal optimization error and makes $\min(n, n^2\epsilon_{\text{dp}}^2 d^{-1}) + \min(n^{4/3}\epsilon_{\text{dp}}^{1/3}, (nd)^{2/3}\epsilon_{\text{dp}}^{-1})$ queries to the gradients of these functions. In the regime $d \le n \epsilon_{\text{dp}}^{2}$, where privacy comes at no cost in terms of the optimal loss up to constants, our algorithm uses $n + (nd)^{2/3}\epsilon_{\text{dp}}^{-1}$ queries and improves recent advancements of [KLL21, AFKT21]. In the moderately low-dimensional setting $d \le \sqrt n \epsilon_{\text{dp}}^{3/2}$, our query complexity is near-linear.
translated by 谷歌翻译
Learned classifiers should often possess certain invariance properties meant to encourage fairness, robustness, or out-of-distribution generalization. However, multiple recent works empirically demonstrate that common invariance-inducing regularizers are ineffective in the over-parameterized regime, in which classifiers perfectly fit (i.e. interpolate) the training data. This suggests that the phenomenon of ``benign overfitting," in which models generalize well despite interpolating, might not favorably extend to settings in which robustness or fairness are desirable. In this work we provide a theoretical justification for these observations. We prove that -- even in the simplest of settings -- any interpolating learning rule (with arbitrarily small margin) will not satisfy these invariance properties. We then propose and analyze an algorithm that -- in the same setting -- successfully learns a non-interpolating classifier that is provably invariant. We validate our theoretical observations on simulated data and the Waterbirds dataset.
translated by 谷歌翻译
在过去的几年中,神经语言模型(NLM)取得了巨大进步,在各种语言任务上取得了令人印象深刻的表现。利用这一点,对神经科学的研究已开始使用NLMS在语言处理过程中研究人脑中的神经活动。但是,关于哪些因素决定了神经语言模型捕获大脑活动的能力(又称其“大脑评分”)的能力,许多问题仍未得到解决。在这里,我们朝这个方向迈出了第一步,并检查了测试丢失,训练语料库和模型架构的影响(比较手套,LSTM,GPT-2和BERT),对参与者的功能磁共振成像的预测时间表的预测时间表。 。我们发现(1)每个模型的未经训练的版本已经通过捕获相同单词的大脑响应的相似性来解释大脑中的大量信号,而未经训练的LSTM优于基于变压器的模型,受到上下文效果的影响较小。 (2)训练NLP模型可改善同一大脑区域的大脑评分,而与模型的结构无关; (3)困惑(测试损失)不是大脑评分的良好预测指标; (4)训练数据对结果有很大的影响,尤其是,现成的模型可能缺乏检测大脑激活的统计能力。总体而言,我们概述了模型训练选择的影响,并为未来的研究提出了良好的实践,旨在使用神经语言模型来解释人类语言系统。
translated by 谷歌翻译
加速的近端算法(APPA),也称为“催化剂”,是从凸优化到近似近端计算(即正则最小化)的确定还原。这种减少在概念上是优雅的,可以保证强大的收敛速度。但是,这些速率具有多余的对数项,因此需要计算每个近端点至高精度。在这项工作中,我们提出了一个新颖的放松误差标准,用于加速近端点(recapp),以消除对高精度子问题解决方案的需求。我们将recapp应用于两个规范问题:有限的和最大结构的最小化。对于有限和问题,我们匹配了以前通过精心设计的问题特异性算法获得的最著名的复杂性。为了最大程度地减少$ \ max_y f(x,y)$,其中$ f $以$ x $为$ x $,而在$ y $中强烈concave,我们改进了受对数因素限制的最著名的(基于催化剂)。
translated by 谷歌翻译
当代理具有矩阵排名估值时,我们研究不可分割的商品的公平分配。我们的主要贡献是一种基于口语洋基交换程序的简单算法,该程序计算出可证明公平有效的洛伦兹(Lorenz)主导分配。尽管存在多项式时间算法来计算此类分配,但我们提出的方法以两种方式对它们进行了改进。(a)我们的方法易于理解,并且不使用复杂的Matroid优化算法作为子例程。(b)我们的方法是可扩展的;事实证明,计算洛伦兹主导分配的所有已知算法要快。这两个属性是在任何真正的公平分配设置中采用算法的关键。我们的贡献使我们更接近这个目标。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
考虑了使用神经解码器进行错误校正代码的最大似然解码的问题。结果表明,通过在节点的激活上使用两个新颖的损失项可以改善神经解码器。第一个损失项对节点的激活施加了稀疏的约束。鉴于,第二个损失术语试图模仿一个具有更好性能的教师解码器的节点的激活。所提出的方法具有与神经信念传播解码器相同的运行时间复杂性和模型大小,同时将解码性能提高了BCH代码上的$ 1DB $。
translated by 谷歌翻译